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人 工 智能 辅助 的 自 闭 症 早期 患者 的 筛 查 与 诊断 
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摘 要 
干预 治疗 效果 越 好 。 传统 自 闭 症 早期 第 查 与 诊断 在 评估 方法 、 流 程 上 存在 局 限 , 无 法 
BR, MAALF A 

近 10 年 间 ， 国内 外 对 自 闭 症 智能 化 识别 方法 的 探索 在 经 典 任务 行为 、 面 部 表情 和 情绪 、 眼 动 、 
控制 和 运动 模式 、 多 模 态 6 个 领域 积累 了 丰富 的 研究 成 果 。 未 来 研究 应 围绕 构建 国内 自 闭 症 早 期 智能 医 
查 与 诊断 体系 ,开发 针对 婴 幼 儿 患 者 的 得 查 工具 ,构建 融 合 多 模 态 数据 的 自 闭 症 婴 幼 儿 智 能 化 识别 模型 ， 


自 闭 症 谱系 障碍 (Autistic Spectrum Disorders，ASD) 的 症状 早 在 婴 幼 儿 期 就 会 显现 ， REAM, RH 
满足 大 规模 筛 查 和 诊断 
技术 的 快速 发 展 ,使 用 智能 化 方法 进行 自 闭 症 早期 大 规模 无 感 第 查 与 诊断 逐渐 成 为 可 能 
脑 影 像 、 运 动 
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建 


立 结 合 脑 影像 技术 的 自 闭 症 精细 化 诊断 方法 等 方面 来 开展 。 


关键 词 ” 自 闭 症 谱系 障碍 ， 自 闭 症 早期 第 查 与 诊断 ， 自 闭 症 智能 化 识别 ， 


分 类 号 R395 
1 引言 
根据 美国 精神 医学 学 会 出 版 的 第 五 版 精神 障 


人 得 诊断 和 统计 手册 (the Diagnostic and Statistical 
Manual of Mental Disorders-5th edition, DSM-5), 
自 闭 症 谱系 障碍 (Autism spectrum disorder, ASD) 
也 被 称 为 孤独 症 , 被 定义 为 一 种 由 神经 系统 发 育 
失调 导致 的 广泛 发 育 障 碍 疾病 (Hodges et al., 
2020)， 以 社交 (沟通 ) 障 碍 和 重复 刻板 的 行为 及 兴 
趣 为 主要 临床 表现 ， 多 见于 儿童 。 
据 世界 卫生 组 织 报道 的 2019 年 流行 病 学 调 
查 估计 ,全 世界 每 160 名 儿童 就 有 1 27ER AA 
症 ， 呈 逐年 上 升 的 趋势 。 美 国 疾病 控制 与 预防 中 心 
2016 年 美国 的 自 闭 证 发 病 率 为 1168， 至 2020 
年 美国 的 自 闭 症 发 病 率 已 经 达到 1/59 (Maenner 
et al., 2020)。 在 中 国 ， 受 限于 起 步 晚 和 专业 诊断 人 
员 的 稀缺 ， 尚 无 权威 的 儿童 自 闭 症 流行 病 学 数 
据 。2014 年 首次 发 布 的 《中 国 自 闭 症 儿童 发 展 状 
况 报告 》 提 到 中 国 儿童 自 闭 症 患 病 率 约 为 1%, 
2020 年 对 中 国 6~12 岁 儿 童 自 闭 症 流行 病 学 的 首 
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人 工 智能 ， 多 模 态 数据 


次 全 国 性 评 佑 研究 显示 ， 自 闭 症 患 病 率 为 0.70% 
(Zhou et al., 2020)。 根 据 《 中 国 孤 独 症 ( 自 闭 症 ) 教 
育 康复 行业 发 展 状况 报告 亚 》 推 算 ， 我 国 自 闭 症 
患者 超过 1000 H, 其 中 0~12 岁 患 者 超过 200 万 ， 
以 每 年 近 20 万 的 速度 增长 。 可 见 ， 过 去 被 视 为 罕 
见 症 的 自 闭 症 , 目前 已 经 位 居 我 国 幼儿 残疾 发 病 
率 第 二 位 ， 仅 次 于 智力 障碍 。 

自 闭 症 难以 治愈 、 伴 随 终生 ,不 仅 给 患者 个 
人 造成 痛苦 ， 给 家 庭 和 社会 带 来 的 负担 也 逐渐 凸 
显 。2015 年 , 美国 根据 自 闭 症 患 病 率 发 布 了 自 闭 
症 社会 经 济 投入 估算 报告 报告 指出 ， 自 闭 症 引 
发 的 医疗 卫生 成 本 、 非 医疗 卫生 成 本 和 生产 力 合 
计 全 国 GDP 的 0.994%~2.009%， 预 计 到 2025 年 ， 
将 上 升 至 0.982%~3.6% (Liu et al., 2015)。 我 国有 
调查 表明 ， 自 闭 症 儿童 的 抚养 成 本 (19582.4 元 ) 明 
显 高 于 智力 障碍 儿童 (6391 元 ) 与 肢体 残疾 儿童 
np dn ea 
症 对 社会 造成 了 极 大 的 负担 , 急需 科学 方法 介 
ee ne 
会 负担 。 
自 闭 症 越 早 发 现 ， 越 早 干预 ,预后 效果 越 好 
(Matson et al., 2008)。 尤其 婴 幼 儿 的 神经 系统 可 塑 
| 适当 的 早期 干预 可 以 提高 患 
者 的 适应 能 力 和 认 知 能 力 ( 徐 云 , 杨 健 2014)。 但 
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是 , 父母 往往 在 患 儿 2~3 岁 时 才能 发 现 明显 的 发 
育 异 常 和 行为 表现 ， 患 儿 从 半 岁 到 2 岁 间 的 轻微 
甚至 是 明显 的 异常 往往 因 父母 的 经 验 不 足 而 被 忽 
略 。 此 外 ,， 自 闵 症 的 诊断 主要 依据 医生 的 经 验 ， 从 
父母 发 现 儿童 异常 再 到 确诊 又 耗费 很 长 的 时 间 ， 
缺乏 便捷 和 客观 有 效 的 诊断 手段 。 因 此 ,开展 针 
对 婴 幼 儿 的 大 规模 自 闭 症 早期 无 感 第 查 、 发 现 风 
念 案例 后 及 早 进 入 诊断 流程 是 非常 必要 的 。 近 10 
年 ,计算 机 视觉 技术 、 语 音 技术 、 深 度 学 习 等 人 
工 智能 和 大 数据 挖掘 技术 已 被 有 效应 用 于 心理 健 
康 测评 、 自 动 化 医疗 诊断 、 疾 病 干 预 和 康复 领域 ， 
为 婴 幼 儿 自 闲 证 的 筛 查 和 诊断 带 来 了 取得 重大 突 
破 的 可 能 性 。 将 人 工 智能 技术 用 于 自 闭 症 自动 化 、 
精细 化 得 查 诊断 有 助 于 降低 筛 查 门槛 ,在 家 庭 或 
社区 就 可 以 实现 大 规模 低龄 婴 幼 儿 群 体 的 无 感 得 
A, 提前 做 好 疾病 预警 和 加 速 干预 流程 。 本 文 首 
先 回顾 自 闲 症 婴 幼 儿 的 传统 得 查 与 诊断 工具 ， 然 
后 对 近 10 年 自 闭 症 婴 幼儿 (0~3 岁 ) 智 能 化 识别 的 


的 观察 检查 表 两 种 形式 。 测 评 工 具 最 早 可 适用 于 患 
儿 6 个 月 , 且 年 龄 跨度 通常 至 少 6 个 月 ( 见 表 1)。 常 
用 的 一 级 筛 查 工具 有 幼儿 自 闭 症 筛 查 表 (Checklist 
for Autism in Toddlers, CHAT), CHAT 修改 版 (M- 
CHAT). J 2 VE A FE Bie 15 Sift ZEW Ast (Pervasive 
Developmental Disorder Screening Test, PDDST), 
自 闭 症 特质 早期 筛 查 表 (the Early Screening for 
Autistic Traits，ESAT) 等 ， 适 用 于 基层 保健 场所 ， 
大 多 由 抚养 者 报告 即 可 完成 。 其 中 , CHAT 是 经 过 
最 严格 的 研究 和 验证 、 适 用 于 婴 幼 儿 的 自 闭 证 检 
测 工具 ( 尤 娜 ， 杨 广 学 , 2006)。 常 用 的 二 级 筛 查 工 
具有 自 闭 症 行为 核查 表 (Autism Behavior Checklist, 
ABC)， 儿 童 自 闭 症 特 质 的 婴 幼 儿 筛 查 表 (Baby 
and Infant Screen for Children with Autism Traits, 
BISCUIT), 2 岁 儿 童 自 闭 症 筛选 测验 (Screening 
Tool for Autism in Two-Year-Olds, STAT)， 婴 儿 自 
闭 症 观 察 量 表 (the Autism Observation Scale for 


Infants，AOSD 等 。 二 级 筛 查 一 般 需 要 幼儿 在 场 ， 


研究 进展 进行 分 类 梳理 。 其 他 年 龄 段 的 自 闭 症 儿 
童 和 青少年 的 新 型 智能 化 识别 研究 也 进行 综述 ， 
这 些 研究 所 使 用 的 数据 采集 手段 和 智能 化 识别 技 
术 对 自 闭 症 婴 幼儿 的 智能 化 识别 具有 和 较 高 的 启发 
和 借鉴 意义 。 最 后 ， 本 文 探讨 了 尚 待 解决 的 问题 
和 未 来 的 研究 方向 ， 为 建立 我 国人 工 智能 辅助 的 
自 闭 症 早期 第 查 与 诊断 体系 提供 新 思路 。 


2 传统 的 自 闭 症 筛 查 与 诊断 方法 


自 闭 症 最 早 的 症状 出 现在 生命 的 前 一 两 年 
(Matson & Goldin, 2014), 50% 的 父母 报告 患 儿 在 
2 岁 时 表现 出 症状 , 90% 的 父母 报告 患 儿 在 3 岁 时 
表现 出 明显 的 症状 (Matson et al.，2008), 而 诊断 的 
年 龄 通常 为 3 岁 (Gilmore et al., 2018; Pierce et al., 
2019)。 自 闭 症 患 儿 一 旦 错失 最 佳 干预 时 期 , 后 续 
治疗 手段 对 康复 效果 将 大 打折 扣 。 因 此 , 很 有 必 
要 尽早 诊断 和 干预 治疗 。 近 年 来 , 国内 外 学 者 均 
提倡 自 闭 症 的 早期 第 查 ， 即 对 18~24 个 月 的 幼儿 
UE Ai ze, 一 旦 发 现 可 疑 症 状 ， 即刻 进入 重 
点 第 查 。 若 第 查 结果 显示 存在 风险 ， SU eA 
期 诊断 模式 ， 尽 早 进行 干预 以 获得 最 佳 康复 效果 
(Hyman et al., 2020)。 可 以 说 , 早期 第 查 是 早期 诊 
断 的 基础 ， 早期 诊断 是 早期 干预 的 前 提 。 

传统 的 自 财 症 早期 筛 查 方法 主要 分 为 基于 量 
表 形 式 的 抚养 者 报告 或 专业 观察 和 基于 游戏 任务 


由 专业 人 员 观 察 检 测 。 

自 闭 症 诊断 的 主要 依据 是 美国 精神 学 会 
(American Psychiatri Association，APA) 精 神 障 碍 
诊断 和 统计 手册 第 五 版 (DSM-5)， 常 用 的 诊断 工 
具 是 被 称 为 “ 金 标 准 ” 的 自 闭 症 谱系 障碍 诊断 观察 
表 第 二 版 (Autism Diagnostic Observation Schedule， 
Second Edition, ADOS-2) 和 自 闭 症 诊断 访谈 量 表 -- 
修订 版 (Autism Diagnostic Interview-Revised, ADI- 
R) (Akshoomoff et al., 2006; Lord et al., 1994)。 前 
者 是 在 标准 化 活动 情境 下 对 婴 幼 儿 直 接 进 行 观察 ， 
后 者 是 对 抚养 者 的 半 结 构 化 访谈 ， 两 者 均 由 经 过 
培训 的 专科 医生 作出 评估 。 

部 分 传统 的 自 闭 症 早期 第 查 与 诊断 工具 得 到 
广泛 认可 , 但 在 评估 方式 和 使 用 效率 上 存在 局 限 
性 ， 无 法 满足 大 规模 的 筛 查 和 诊断 需求 ， 主 要 原因 
A: 1) 自 闭 症 早期 症状 及 风险 信号 需要 依赖 专科 
医生 的 评 断 ， 对 观察 者 有 专业 性 要 求 (Taylor et al., 
2017)。 评估 者 的 专业 水 平 、 机 构 的 医疗 资源 、 文 
化 背景 差异 均 会 影响 自 闭 症 评定 结果 的 信和 度 和 效 
度 (de Belen et al., 2020)。2) 自 闭 症 的 确诊 需要 经 
历 抚 养 者 判断 、 医 生 访谈 、 临床 观察 和 评估 等 , 过 
程 耗 时 且 费 用 高 昂 (Wiggins et al., 2006)。3) 自 闭 症 
症状 表征 非常 广泛 ， 部 分 临床 症状 在 2、3 岁 前 并 
无 稳定 表现 ( 陈 顺 森 等 , 2011)。 此 外 ,， 受 环境 、 经 
济 因素 等 限制 ， 医 生 仅 能 基于 有 限 的 项 目 做 出 诊 
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R1 ASD 早期 第 查 常用 工具 表 
研究 者 工具 名 称 缩写 适用 范围 (单位 : 月 ) 形式 
名 . er 父母 报告 
Baron-Cohen 等 (1992) Checklist for Autism in Toddlers CHAT 18~24 ae 
专业 观察 
A 父母 报告 
Robins 等 (2001) Modified Checklist for Autism in Toddlers © M-CHAT 16~30 = 
专业 观察 
Siegel (2004) Pervasive Developmental Disorders PDDST- II 12-48 父母 报告 
Screening Test-II 
A BL He 
Dietz % (2006) the Early Screening for Autistic Traits ESAT 14~15 meee 
Reznick 等 (2007) the First Year Inventory FYI 9~12 父母 报告 
Krug 等 (1980) Autism Behavior Checklist ABC >18 父母 报告 
À . : . 父母 报告 
Schopler 等 (2010) Childhood Autism Rating Scale CARS >24 专业 观察 
i Baby and Infant Screen for Children Æ A> DAH E 
Matson 等 (2009) with Autism Traits BISCUIT 17~37 父母 报告 
A 7 A A shin H 
Stone 4 (2000) Screening Tool for Autism in Two STAT 24-36 
Year-Olds 的 观察 
ETRA ILN 
Bryson 等 (2000) the Autism Observation Scale for Infant AOSI 6~18 戏 活动 的 观察 
惹 于 游戏 项 目 
Young (2007) Anutism Detection in Early Childhood ADEC 12~36 a 
的 观察 
W, 无 法 对 患 儿 在 自然 状态 下 的 行为 展开 长 期 观 自 闭 症 谱系 障碍 在 不 同 亚 型 、 具 体 症 状 和 严重 程 


K, 在 这 种 情况 下 ,对 症状 的 评估 往往 是 不 充分 
的 ,因此 , 目前 旺 待 研究 者 提出 新 的 技术 手段 ,在 保 
证 结果 达到 一 定 准 确 度 的 前 提 下 简化 自 闭 症 的 第 查 
与 诊断 流程 ,缩减 评估 所 需 的 时 间 与 人 力 成 本 。 

目前 ， 人工 智能 技术 辅助 的 自动 化 医疗 诊断 
领域 发 展 迅 速 , 例如 ,依托 计算 机 视觉 的 面部 检 
测 技 术 已 实现 超过 30 多 种 疾病 的 症状 识别 或 预 
诊断 ， 其 中 包括 多 种 精神 类 疾病 ， 如 注意 缺陷 与 
多 动 障碍 和 抑郁 (Thevenot et al., 2017) 等 。 应 用 智 
能 化 手段 识别 自 闭 症 婴 幼儿 的 优势 在 于 : 1) 可 获 
取 自然 的 、 多 维度 的 、 多 模 态 的 行为 数据 进行 综 
合 分 析 , 保证 评估 结果 的 有 效 性 和 客观 性 ， 提 供 
可 靠 的 预 诊断 信息 ， 辅 助 医生 的 临床 诊断 ; 2) 计 算 
机 视觉 技术 能 捕捉 肉眼 无 法 观察 和 量化 的 自 闭 症 
婴 幼儿 的 细微 动作 ， 有 效 识别 异常 行为 或 发 现 新 
的 自 闭 症 早期 风险 标志 , 相 比 人 工 第 查 和 诊断 的 成 
本 和 侵入 性 低 , 可 应 用 于 家 庭 或 社区 医院 环境 。 


3 自 闭 症 早期 患者 的 智能 化 识别 技术 


尽管 研究 者 已 发 现 诸多 自 闭 症 的 核心 症状 和 
早期 风险 标志 , 但 低龄 幼儿 很 难 确诊 ， 主 要 在 于 


度 上 表现 出 较 大 差异 。 并 且 ， 自 闭 症 婴 幼 儿 的 行 
为 表现 通常 伴随 早期 发 育 特征 (Vyas et al., 2019), 
同时 依赖 非 自 闭 症 的 影响 因素 , 例如 认 知 功能 和 
年 龄 等 Li et al., 2019)。 然 而 ,依靠 抚养 者 报告 早 
期 症状 易 存在 回忆 偏差 。 临 床 医生 的 观察 有 限 ， 
需要 患 儿 予以 配合 ,存在 取样 偏差 。 如 果 能 汇总 
自 闭 症 婴 幼 儿 的 大 量 行 为 ， 特 别 是 自然 状态 下 的 
日 常 行为 , 使 用 更 为 客观 的 方法 综合 患 儿 的 多 方 
信息 作出 评估 ， 将 极 大 提高 筛 查 与 诊断 的 准确 性 
和 可 靠 性 。 

计算 机 视觉 、 智 能 传感器 、 机 器 学 习 、 深 度 
学 习 等 人 工 智能 技术 已 逐渐 成 功用 于 自 闭 症 的 早期 
预警 (Hazlett et al.，2017) 和 机 器 辅助 治疗 (Zheng 
et al., 2015)。 同 时 ， 自 闭 症 的 诊断 和 治疗 领域 每 天 
都 产生 大 量 数据 ， 基 础 数据 的 积累 量 已 达到 一 定 
规模 ,合理 使 用 历史 数据 可 有 效 提 高 自 闭 症 患 儿 
的 诊疗 效率 ( 雇 梦 怡 等 ,2021)。 本 文 根 据 系统 评 
价 和 元 分 析 (PRISMA) 指 南 (Moher et al., 2009), 
分 别 对 Web of Science、PubMed、IEEE Xplore、 
ProQuest 数据 库 中 发 表 于 2010~2020 年 间 的 文献 
以 关键 字 一 一 “ 自 闭 症 谱系 障碍 *”(“ 自 闭 症 ”) 和 “机 
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器 学 习 ”(“ 深 度 学 习 ”,“ 计 算 机 视觉 ”", “情感 计算 ”) 
为 主题 词 进 行 搜索 ,， 去除 重复 项 后 初步 检索 到 
741 篇 文献 ,结合 “ 自 闭 症 早期 患者 的 智能 化 识别 ” 
的 研究 主题 ， 对 所 有 文献 按 固定 标准 进行 筛选 ， 
包括 : 1) 关 注 人 类 自 闭 症 , 吻 除 动物 类 研究 ; 2) 主 
题 集 中 在 智能 化 技术 在 自 闭 症 第 查 、 诊 断 中 的 应 
用 ,而 非 以 干预 、 治 疗 为 主 的 情境 ; 3) 剔 除 含 有 基 
因 、 生 物 标 记 物 等 生物 、 医 学 类 的 研究 ; TRL 
婴 幼 儿 、 儿 童 、 青 少年 患者 为 主 ， 自 闭 症 成 年 及 
老年 患者 非特 殊 原 因 不 予 考虑 ; 5) 研 究 目 的 是 自 
闭 症 检测 或 自 闭 症 经 典 测 评 任务 中 的 风险 行为 ， 
而 非 衍 生 行为 (如 ， 自 闭 症 患者 的 自 伤 行 为 、 睡 眠 
等 )。 最 终 获 得 576 篇 目标 文献 ， 见 图 1. WER 
文献 发 现 ，10 年 间 自 闭 症 自动 化 识别 的 探索 基于 
不 同类 型 的 数据 展开 ， 可 依 此 归纳 为 6 个 研究 子 
领域 1) 基于 经 典 任务 行为 数据 的 识别 (114 篇 ); 2) 
基于 面部 表情 和 情绪 数据 的 识别 (144 篇 ); 3) 基 于 
眼 动 数 据 的 识别 (18 篇 ); 4) 基 于 脑 影 像 数 据 的 识别 
(169 篇 ); 5) 基 于 运动 控制 和 运动 模式 数据 的 识别 
(58 篇 ); 6) 基 于 多 模 态 数据 的 识别 (73 篇 )。 本 文 根 
据 文献 引用 率 排 序 法 和 滚雪球 法 选择 重点 文献 并 


研究 主题 


数据 库 
Web of Science 
PubMed 
IEEE Xplore 
ProQuest 


时 间 范 围 
2010.1.1-2020.12.30 


“ 自 闭 症 婴 幼儿 的 智能 化 识别 ” 


进行 文献 扩充 ， 最 终结 合 80 篇 重点 文献 进行 综述 
下 文 将 从 这 6 个 领域 逐一 展开 介绍 。 
31 基于 经 典 任 务 行为 数据 的 自动 识别 

自 闭 症 早期 诊断 的 第 一 步 就 是 对 早期 潜在 危 
险 信号 的 筛选 、 评 估 和 处 理 ( 陈 顺 森 等 , 2011)。 长 
期 以 来 ， 自 闭 症 的 早期 异常 行为 在 回顾 性 研究 ( 父 
母 报 告 、 家 庭 录 像 分 析 ) 和 前 脆性 研究 、 早 期 筛 查 
量 表 、 临 床 诊 断 中 得 到 充分 研究 和 验证 ， 积 累 了 
较 多 经 典 的 临床 评估 任务 及 相应 的 行为 观测 指标 ， 
如 AOSI 中 的 叫 名 反应 任务 、 视 觉 追 踪 任务 、 注 
意 脱离 任务 等 。 近 年 来 , 研究 者 针对 自 闭 症 早期 
经 典 任 务 中 的 异常 行为 提出 自动 化 检测 模型 。 研 
究 者 一 般 采 用 非 接触 式 视觉 系统 及 传感器 技术 
(电子 设备 前 置 摄像 , RGB 摄像 机 , Kinect 3D 体感 
摄影 机 等 ) 采 集 患 儿 在 任务 中 的 面部 表情 变化 、 头 
部 运动 、 有 上 肢体 运动 、 声 学 等 多 维度 行为 数据 ， 提 
出 基于 任务 的 异常 行为 检测 算法 和 自动 化 评估 模 
型 ， 以 替代 传统 的 人 工 观 察 与 评估 ， 提 高 盘查 效 
率 。 下 文 以 叫 名 反应 任务 、 视 觉 注 意 力 任务 为 例 ， 
介绍 行为 数据 采集 技术 ,行为 数据 采集 过 程 、 异 
常 行为 检测 算法 与 预测 模型 。 
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自 闭 症 谱系 障 但 ( 自 闭 症 ) 
AND 
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图 1 文献 调研 流程 图 


第 查 标准 
1. 剔除 动物 类 研究 
2. 剔除 干预 、 治 疗 研究 
3. 剔除 基因 、 生 物 类 研究 
4. 剔除 自 闭 证 成 年 及 老年 研究 
5. 剔除 对 自 闭 症 衍生 行为 的 研究 
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“ 叫 名 反应 ”(Response to name, RTN) 是 自 闭 
证 早期 筛 查 量 表 和 临床 诊断 中 最 常 出 现 的 经 典 任 
务 之 一 。 婴 儿 自 4~6 个 月 开始 就 对 自己 的 名 字 有 
反应 ， 在 听 到 自己 的 名 字 时 会 有 选择 地 转动 头 部 ， 
表明 他 们 已 领会 到 名 字 有 打招呼 的 含义 (Imafuku 
et al.，2014)。 叫 名 反应 需要 专业 人 员 现 场 观察 记 
录 或 事后 注释 ， 根 据 计 分 手册 或 诊断 标准 进行 评 
估 。 事 实 上 ， 自 闭 症 患 儿 在 叫 名 反应 中 的 非典 型 
(atypical) 行 为 可 量化 为 可 计算 的 观测 指标 ， 如 患 
儿 的 眼睛 注视 、 头 部 姿态 变化 、 名 字 呼 叫 后 的 反 
应 时 长 等 等 。 例 如 , Bidwell (2014) 等 人 分 析 了 公开 
标注 的 多 模 态 二 元 行为 数据 集 (Multimodal Dyadic 
Behavior Dataset, MMDB) 中 的 50 组 15~30 月 龄 的 
幼儿 参与 “ 叫 名 反应 ”的 音 视频 ， 其 通过 天 花 板 高 
架 式 Kinect、 前 置 摄像 机 与 追踪 器 估计 幼儿 头 部 
姿态 变化 。 研 究 中 , 幼儿 的 头 部 偏 航 (yaw) 夹 角 和 
听 到 姓名 后 的 反应 潜伏 时 长 作为 预测 幼儿 对 社交 
刺激 (呼唤 姓名 ) 积 极 ( 消 极 ) 反 应 的 行为 指标 , 不 同 
分 类 器 的 预测 效果 略 有 差别 ， 最 高 精确 率 (precision) 
和 召回 率 (recall) 达 到 89.4% 和 83.3%。Wang 等 人 
(2019) 对 “ 叫 名 反应 ”任务 构建 了 包含 实验 流程 、 数 
据 采 集 和 自动 评估 的 自 财 症 辅助 筛 查 系 统 ， 有 助 
于 缩减 得 查 的 人 力 成 本 ， 有 望 在 医疗 欠 发 达 地 区 
发 挥 作用 。 研 究 者 在 实验 环境 搭建 了 由 Kinect 和 
2 个 RGB 摄像 机 组 成 的 多 传感器 系统 ， 可 同时 对 
幼儿 (平均 年 龄 2 岁 ) 的 面部 、 注视 、 姿 态 和 语音 等 
行为 信息 进行 采集 和 集成 ， 实 现行 人 检测 和 骨骼 
点 提取 (Microsoft Kinect SDK) 、 面 部 表情 识别 
(Baltrušaitis et al., 2015) 、 面 部 标记 点 的 检测 与 追 
(Baltrušaitis et al., 2013)、 有 眼球 中 心 定 位 (Wang 
et al，2018) 和 头 部 姿态 估计 (Baltrugaitis et al., 
2016) 等 。 研 究 者 基于 眼球 中 心 定 位 和 头 部 姿态 佑 
计算 法 , 使 用 人 有 眼 注视 方向 的 旋转 角度 和 注视 持 
续 时 间作 为 预测 幼儿 积极 (消极 ) 反 应 的 行为 指标 ， 
平均 分 类 准确 率 (accuracy) 为 92.7%。 
非典 型 注意 力 的 评估 也 是 最 常见 于 自 闭 症 早 
期 筛 查 与 诊断 工具 的 经 典 任务 之 一 。 目 前 ， 基 于 
自 闭 症 幼儿 的 视 音 频 、 图 像 等 能 够 自动 识别 多 种 
非典 型 的 注意 力 特 征 , 例如 ,不 流畅 的 视觉 追踪 
(Zwaigenbaum et al., 2005)、 人 脸面 部 的 注视 频次 
低 (Ozonoff et al.，2010)、 注 意 力 分 离 能 力 弱 
(Elsabbagh et al., 2013) 等 。Hashemi 等 人 (2014) 使 
用 面部 检测 与 追踪 技术 对 AOSI 中 两 种 非典 型 视 


觉 注意 力 任务 进行 自动 评估 ， 分 别 是 : 1) 注 意 脱 
离 : 从 两 个 竞争 性 视觉 刺激 中 分 离 注意 力 并 移动 
视线 ; 2) 视 觉 追 踪 : 视觉 跟踪 移动 的 物体 横向 穿 过 
中 线 。 研究 者 使 用 GoPro Hero 运动 摄像 机 记录 了 
12 名 5~18 月 龄 的 自 闭 症 风险 婴儿 的 多 个 实验 试 
次 ， 基 于 偏 航 (yaw) 和 俯仰 (pitcb) 的 头 部 姿态 运动 
评估 视觉 注意 。 结 果 表 明 ， 自 动 评估 与 专家 的 评 
分 者 信 度 (Cohen's Kappa) 为 0.75， 远 高 于 非 专家 
评分 (0.27~0.37)。Bovery 等 人 (2019) 开 发 了 移动 设 


备 端 的 实验 任务 测量 自 闭 症 幼儿 的 非典 型 注意 力 ， 


左右 屏 分 别 呈 现 社交 与 非 社交 的 影像 刺激 ， 前 置 
摄像 记录 104 名 16~31 月 龄 幼儿 观看 刺激 时 的 本 
部 动态 影像 。 研 究 者 通过 计算 51 个 面部 标记 点 
(Hashemi et al.，2015) 与 3D 标准 人 脸 模 型 (3D 
canonical face model) 间 的 旋转 参数 估计 头 部 姿态 
(Fischler & Bolles, 1981), 4E A 7B nit (yaw)3€ 
角 和 眼球 虹膜 位 置 估计 注意 方向 ,进而 测量 自 闭 
症 幼儿 对 不 同 刺 激 的 注意 时 间 、 注 意 偏好 和 注意 
转移 。Campbell 等 (2019) 采 用 上 述 类 似 的 实验 范 
式 对 16~31 月 龄 自 闭 症 幼儿 的 非典 型 注意 和 “ 叫 
名 反应 ”进行 自动 评估 。 结 果 表 明 , 叫 名 反应 的 自 
动 评估 与 专家 评分 具有 和 较 高 一 致 性 (ICC = 0.84, 
95% CI 0.67~0.91), 敏感 性 (sensitivity) 为 96%， 特 
异性 (specificity) 为 38%。 

现 有 研究 集合 了 多 种 自 闭 症 的 经 典 临 床 评估 
ES, 开发 了 集 任务 、 数 据 采 集 、 算 法 于 一 体 的 
移动 端 应 用 程序 ， 形 成 集成 化 、 低 成 本 、 可 扩展 
的 自 闭 症 自动 第 查 工具 ， 应 用 范围 从 实验 室 研究 
扩展 至 初级 保健 院 、 学 校 、 家 庭 等 社会 医疗 场所 ， 
已 实现 自 闭 症 幼 儿 的 非典 型 情绪 、 社 会 参照 、 社 会 
性 微笑 、 叫 名 反应 等 社会 互动 行为 的 自动 检测 ， 已 
具有 一 定 的 预测 效果 (Hashemi et al., 2015; Hashemi 
et al., 2018)。 然 而 ,目前 仅 涉及 较为 简单 的 评估 任 
务 ， 尚 未 涉及 复杂 任务 ， 因 为 幼儿 在 这 类 任务 中 
的 反应 模式 更 加 多 元 , 大 大 增添 了 自动 化 检测 的 
难度 。 例如, ADOS 中 的 “ 泡 泡 游 戏 ” 是 为 评估 幼儿 
和 他 人 “共享 乐趣 ”的 能 力 , 需要 首先 建立 “共享 乐 
趣 ” 对 应 的 行为 维度 体系 , 只 有 同时 结合 幼儿 的 表 
情 、 眼 神 、 自 发 动作 、 声 音 等 多 模 态 时 序数 据 进 
行 协同 建 模 才 有 可 能 达到 较 好 的 检测 效果 。 

3.2 ”基于 面部 表情 和 情绪 数据 的 自动 识别 

社交 沟通 障碍 是 自 闭 症 患 儿 区 别 于 典型 发 展 
群体 的 重要 特征 ， 表 现在 社会 情感 互动 和 非 言 语 
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沟通 两 个 方面 ， 如 受 损 的 面部 表情 模仿 能 
部 表情 多 样 性 及 程度 等 ， 是 临床 常用 的 面部 行为 
指标 。 使 用 面部 表情 分 析 技 术 能 够 克服 人 类 感知 
的 局 限 性 , 快速 、 客 观 地 自动 识别 自 闭 症 。 
近年 来 , 计算 机 视觉 技术 的 进步 推动 了 人 工 
智能 情绪 识别 的 发 展 ， 其 主要 任务 是 基于 面部 
像 或 视频 开发 算法 识别 人 脸 情 绪 标签 ， 如 基本 
绪 分 类 (de Belen et al., 2020)。 研 究 者 尝试 构建 
来 检测 异常 情绪 认 知 和 表达 的 算法 ， 并 将 其 应 月 
到 自 闭 症 婴 幼 儿 的 自动 化 识别 中 。 然 而 ， 受 限于 
自 闭 症 患 者 取样 的 特殊 性 , 样本 规模 普遍 偏 小 ， 
但 正常 人 群 的 情绪 识别 领域 积累 了 较 多 模型 和 公 
开 数 据 集 ， 因 此 , 一 种 研究 思路 是 先 基 于 正常 
群 数据 集 的 面部 特征 迁移 或 调整 已 有 模型 。 例 如 ， 
Han 等 人 (2018) 基 于 FERET 和 Cohn-Kanade (CK+) 
正常 人 脸 数 据 集 ， 抽取 并 比较 了 正常 人 群 和 自 闭 
证 儿童 的 面部 表情 特征 差异 ， 提 出 了 一 种 基于 稀 
Bit 2474 (Sparse coding) 的 特征 迁移 学 习 算 法 。 在 自 
闭 症 儿童 与 机 器 人 互动 的 过 程 中 ,实时 采集 面部 
数据 并 识别 情绪 类 型 ， 平均 准确 率 (accuracy) 在 
80% 以 上 。 
研究 者 在 实验 室 或 自然 环境 下 采集 婴 幼 儿 静 
态 面 部 图 像 或 动态 面部 视频 , 构建 自 闭 症 婴 幼儿 
的 情绪 识别 或 自 闭 症 分 类 模型 , 已 达到 较为 精准 
的 预测 效果 。 例 如 ,社会 性 微笑 是 自 闭 症 早期 的 
重要 风险 标志 ( 毕 小 彬 等 , 2020)， 特 别 是 母 婴 互 
动 中 婴儿 的 微笑 是 检测 自 闭 症 的 关键 信号 ,在 临 
床 和 家 庭 环 境 中 自动 识别 婴儿 微笑 有 助 于 提升 早 
期 筛 查 效率 。 例 如 , Tang 等 人 (2018) 基 于 母 婴 互动 
时 34 名 6~24 月 龄 婴儿 ( 自 闭 症 高 风险 11 AY É 
部 视频 数据 集 (RCLA&NBH_Smile, 含 77000 人 
工 标注 视频 帧 ) 训 练 卷 积 神经 网 络 (Convolutional 
Neural Networks，CNN) 自 动 检测 视频 中 的 婴儿 笑 
容 , 平均 准确 率 (accuracy) 为 87.16%。Li 等 人 (2019) 
发 现 面部 表情 、 面 部 动作 单元 、 情 绪 唤醒 度 和 情 
绪 效 价 是 自 闭 症 分 类 的 重要 面部 特征 。 研 究 者 通 
过 移动 设备 前 置 摄像 记录 105 名 儿童 观看 视频 时 
的 面部 动态 影像 ， 使 用 基于 公开 数据 集 AffectNet 
和 EmotioNet 预 训 练 的 CNN 模型 和 时 序 特征 抽取 
方法 获得 面部 特征 表示 ， 建 立 二 分 类 预测 模型 ， 自 
闭 症 分 类 的 敏感 性 (sensitivity) 和 特异 性 (specificity) 
为 0.76 和 0.69。Shukla 等 人 (2017) 提 出 从 面部 图 像 
自动 检测 发 育 障碍 的 方法 , 包括 自 闭 症 谱系 障碍 、 
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脑 竣 、 上 胎儿 酒精 综合 症 、 唐 氏 综 合 症 、 稼 力 障碍 、 
早衰 等 等 。 人 研究 者 使 用 微调 的 CNN 模型 一 一 Alex 
Net 对 两 千 余 张 人 脸 图 像 获 得 面部 特征 表示 , 使 
用 支持 向 量 机 (Support Vector Machine, SVM) 构 建 
不 同 疾病 的 二 分 类 任务 。 结 果 表 明 ， 自 闭 症 分 类 
的 平均 精确 率 (precision) 为 93.33%， 且 模型 对 不 
同 疾病 的 分 类 优 于 人 工分 类 ( 非 专家 ) 的 结 

在 对 自 闭 症 患 者 面部 情绪 的 分 类 基础 上 ， 另 
有 人 研究 深入 探讨 了 自 闭 症 患 者 面部 表情 的 发 生 过 
程 。 研 究 者 通过 面部 动作 单元 编码 等 方法 检测 、 
追踪 人 有 眼 无 法 观察 到 的 微观 面部 运动 特征 ， 对 自 
闭 症 患者 产生 面部 表情 的 能 力 进 行 量化 评估 ， 如 
检测 个 体 是 否 开始 产生 表情 、 产 生 特 定 表情 时 面 
部 各 区 域 和 肌肉 群 的 激活 情况 , 这 有 利于 自 闭 症 
的 精细 诊断 和 对 点 干预 对 自 闭 症 婴 幼儿 的 智能 
化 盘查 及 其 面部 表情 特征 研究 具有 启发 性 。Leo 
等 人 (2019) 提 出 对 自 闭 症 患者 表达 面部 情绪 的 能 
力 进行 计算 分 析 的 方法 , 构建 了 自动 化 评估 框架 ， 
包括 4 个 算法 模块 : 人 上 脸 检 测 、 人 脸 特 征 点 检测 
与 追踪 、 面 部 动作 单元 强度 估计 、 面 部 表情 分 析 。 
17 名 自 闭 症 患 者 (6~13 岁 ) 和 10 名 典型 发 展 幼儿 
(26~35 月 龄 ) 产 生 4 种 基本 情绪 的 面部 动态 影像 作 
为 分 析 材 料 。 结 果 表 明 ， 该 方法 能 够 分 别 较为 准 
确 地 预测 上 述 两 类 群体 表达 特定 情绪 时 的 专家 评 
定 分 数 (二 分 类 任务 )， 自 闭 症 患 者 情绪 识别 的 精 
确 率 (precision) 和 召回 率 (recal]) 为 0.90 和 0.85。 此 
Sh, REM A AVE BAERGA TR. RR A TE 
经 情绪 时 能 同时 使 用 上 面部 和 下 面部 ， 而 表达 翡 
伤 情绪 时 的 表情 主要 集中 在 下 面部 。Guha 等 人 
(2016) 使 用 运动 捕 提 技术 (motion capture 
technique, mocap) 对 9~14 岁 的 高 功能 自 闭 症 (high 
functioning autism) 患 者 面部 表情 的 细微 动态 特征 
进行 研究 ， 要求 被 试 模仿 固定 序列 的 面部 情绪 ， 
同时 使 用 6 个 红外 运动 捕捉 相机 以 每 秒 100 帧 的 
速度 记录 32 “STB TC xs HIS BY IN EI 
(multiple scale entropy, MSE) 分 析 个 体面 部 动态 复 
IERM, 高 功能 性 自 闭 症 患者 表达 情绪 时 面 冲 
表情 的 动态 复杂 性 较 低 ,缺乏 丰富 的 面部 表情 模 
式 和 变异 性 ， 差异 主 要 集中 在 眼 部 区 域 。Ahmed 
和 Goodwin (2017) 则 着 眼 于 面部 表情 计算 分 析 在 
自 闭 症 患者 的 计算 机 辅助 教学 情境 中 的 应 用 ， 研 
究 如 何 通 过 面部 表情 变化 测量 学 习 投入 水 平 ， 以 
达到 辅助 教学 的 目的 。 研 究 者 基于 自 闭 症 青少年 
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(平均 年 龄 约 12 岁 ) 学 习 过 程 中 计算 机 前 置 摄像 记 
录 的 面部 反应 视频 , 使 用 面部 动作 编码 系统 
(Facial Action Coding System, FACS) 对 特定 情绪 
引发 的 面部 动作 单元 进行 编码 ， 以 计算 机 表情 识 
别 工 具 (Computer Expression Recognition Toolbox, 
CERT) 得 到 视频 中 个 体 头 部 朝向 屏幕 的 时 间 比 和 
面部 动作 单元 的 激活 状态 作为 监控 学 习 投入 的 行 
为 和 情绪 指标 。 

自 闭 症 患 者 的 面部 情绪 识别 和 面部 表情 特征 
直 是 自 闭 症 研究 的 热点 。 自 闭 症 面部 表情 和 情 
绪 的 自动 化 识别 能 够 解决 面部 人 工 编码 耗费 时 间 
K, 难以 分 析 大 样本 、 实 时 分 析 的 局 限 。 目前 , 该 
领域 的 研究 可 根据 表情 产生 的 类 型 (自发 表情 ， 模 
仿 表 情 )、 人 情绪 诱发 刺激 类 型 (视频 , 感官 刺激 ， 社 
交互 动 )、 数 据 (静态 面部 图 像 ， 动 态 面 部 视频 )、 
面部 表情 自动 化 评估 的 目标 (定性 , 定量 ) 划 分 为 
不 同 的 子 领域 。 同 时 , 研究 成 果 可 用 于 开发 “治疗 
机 器 人 ” 实时、 自动 识别 自 闭 症 幼儿 的 情绪 并 进 
行 对 点 干预 ,辅助 临 床 医生 “阅读 ” 自 闭 症 儿 童 的 
面部 表情 ， 提 高 诊疗 的 有 效 性 。 最 后 ,建立 面部 表 
情 和 情绪 识别 算法 的 第 一 步 通 常 是 对 采集 的 大 量 
面部 视频 帧 进行 标注 ， 而 完全 采用 人 工 标注 费时 
费力 ， 从 众 包 平 台 (crowdsourcing platform) 的 外 包 
标注 又 往往 会 存在 评分 者 一 致 性 低下 的 问题 。 
Kalantarian 等 人 (2019) 提 出 了 3 种 自动 标记 算法 
对 儿童 (平均 年 龄 为 8.5 岁 ) 面 部 表情 视频 帧 进行 6 
种 基本 情绪 的 自动 标注 , 包括 : 厌恶 、 中 立 、 惊 
奇 、 害 怕 、 愤 怒 和 快乐 , 结果 表明 前 4 种 情绪 的 
自动 标记 效果 相对 较 好 。 

3.3 ”基于 眼 动 数据 的 自动 识别 

眼神 交流 是 非 言语 沟通 的 关键 要 素 ， 表 示 个 
体 对 社交 互动 的 兴趣 、 关 注 和 参与 ， 是 识别 语言 
障碍 、 情 感 状态 及 自 闭 症 早期 风险 标志 的 重要 指 
标 。 目 前 , 已 有 充分 证 据 表明 自 闭 症 幼儿 与 典型 
发 展 群体 的 注视 方式 存在 显著 差异 ， 如 非典 型 的 
凝视 、 眼 神 交 流 和 共同 注意 (Chong et al., 2017); 
对 社交 和 非 社交 图 像 的 偏好 不 同 (Campbell et al., 
2014; Chawarska et al., 2013; Shi et al., 2015)。 

眼 动 追 踪 是 测量 社会 性 知觉 和 社会 性 偏好 的 
常用 方法 之 一 ， 其 能 够 捕获 眼神 的 运动 轨迹 ， 非 
常 适合 对 感知 异常 的 自 闭 症 患 儿 进 行 研究 。 传 统 
的 眼 动 追踪 主要 有 两 种 方式 ， 其 一 是 佩戴 头 戴 式 
眼 动 设备 ,低龄 幼儿 需要 较 长 时 间 适 应 ; 其 二 是 


视点 追踪 (viewpoint tracking), 能 追踪 的 视线 范围 
限制 于 屏幕 ， 仅 适用 于 高 度 受 控 的 实验 室 研究 ， 
无 法 测量 自 闭 症 患 儿 在 社交 环境 中 的 注视 行为 
(Chong et al., 2017)。 因 此 , 研究 者 开始 探索 使 用 
非 接 触 性 的 眼 动 追踪 技术 ， 如 基于 图 像 中 的 人 眼 
外 观 (Lu et al., 2014) 或 构建 人 眼 数 学 模型 (Li & Li, 
2015), 同时 对 眼 动 数据 中 蕴含 的 心理 因素 进行 分 
析 。 例 如 ，Syeda 等 人 (2017) 研 究 了 自 闭 症 患 者 
(5~17 岁 ) 在 处 理 人 脸 情 绪 图 像 时 的 面部 扫描 模式 
和 情绪 识别 能 力 。 研 究 者 使 用 安装 于 笔记 本 的 眼 
动 仪 (Tobii EyeX Controller) 采 集 自 闭 症 患 者 和 上 典 
型 发 展 个 体 在 观看 6 种 基本 情绪 的 人 脸 图 像 时 的 
眼 动 数 据 。 研 究 发 现 ， 自 闭 症 患者 在 扫描 面部 时 
较 少 关注 面部 核心 特征 (眼睛 、 自 子 、 嘴 巴 )， 因 而 
很 难 正确 感知 他 人 情绪 。Chrysouli 等 人 (2018) 基 
于 正常 人 群 和 自 闭 症 患 者 的 眼睛 凝视 影像 数据 集 
(MaTHiSiS) 识 别 学 习 者 在 人 机 交互 学 习 情境 中 的 
情绪 状态 , 通过 构建 两 阶段 的 双流 CNN 模型 (two- 
stream CNN), 融合 眼 部 连续 图 像 帧 间 的 光 流 信息 
(optical flow) 和 静态 图 像 帧 的 空间 信息 识别 个 体 
当前 是 否 处 于 投入 、 无 聊 或 诅 丧 的 情绪 状态 。 近 
年 来 , 研究 者 评估 自 闭 症 儿童 与 抚养 者 面对面 互 
动 状态 下 的 眼神 接触 时 通常 采用 POV (point-of- 
view) 相 机 采集 眼 部 数据 ， 即 要 求 成 年 人 佩戴 头 戴 
式 摄 像 头 记录 儿童 的 注视 行为 。 例 如 , Chong 等 人 
(2017) 基 于 POV 相机 采集 的 数据 ,提出 检测 自 闭 
症 儿 童 在 与 抚养 人 自然 互动 过 程 中 的 脸 部 朝向 和 
有 眼神 接触 的 算法 。 他 们 基于 100 名 自 闭 证 儿童 (3~6 
岁 ) 和 典型 发 展 幼儿 (18~36 月 龄 ) 的 、 包 含 156 个 
互动 片段 、 共 22 小 时 的 影像 数据 集 ， 开 发 了 一 种 
端 到 端的 深度 学 习 框 架 (Pose-Implicit CNN) 检 测 
儿童 的 眼神 接触 ， 结 果 优 于 其 它 模 型 (AlexNet， 
PEEC，GazeLocking)， 精 确 率 (precision) 为 0.78, 
A lH] (recall) 0.80. 

传统 方法 收集 自 闭 症 低龄 幼儿 的 眼 动 数据 几 
乎 不 可 能 在 大 规模 盘查 中 施行 ， 其 一 是 需 在 高 度 
受 控 的 实验 室 环境 中 借助 专业 仪器 测量 ; 其 二 要 
求 被 试 长 时 间 持 续 注视 屏幕 ， 不 适合 对 低龄 幼儿 
进行 测试 ， 因而 研究 者 很 难 在 自然 社交 互动 中 (如 ， 
幼儿 与 抚养 者 ) 评 佑 眼神 接触 或 注视 。 而 上 述 非 侵 
入 性 的 眼 动 测量 技术 将 有 利于 自 闭 症 早期 眼 动 特 
征 的 相关 研究 ， 如 通过 摄像 机 记录 幼儿 的 面部 ( 主 
要 是 眼睛 ) 和 头 部 姿态 变化 ， 据 此 分 析 幼 儿 注视 的 
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位 置 和 凝视 时 长 。 需 注意 的 是 , 不同 于 实验 室 的 
标准 化 环境 ,幼儿 在 家 庭 或 保健 院 等 场所 中 采集 
的 视频 数据 可 能 存在 面部 遮挡 、 头 部 位 置 偏 移 的 
问题 ， 需 进行 视频 预 处 理 和 校正 等 。 
3.4 基于 脑 影像 数据 的 自动 识别 
自 闭 症 的 精准 诊断 对 自 闭 症 患 者 的 及 早 干预 
和 及 时 治疗 至 关 重 要 。 目 前 国际 上 开展 了 大 量 针 
对 自 闭 症 精准 诊断 的 研究 , 力图 找 出 自 闭 症 的 行为 
学 、 遗 传 学 和 影像 学 标志 物 (Hong et al., 2020; Lord 
et al., 2020; Talbott & Miller, 2020; Wolfers et al., 
2019)， 同 时 结合 人 工 智能 技术 ,实现 对 自 闭 症 的 
客观 诊断 。 然 而 ， 这 些 研究 绝 大 多 数 是 针对 儿童 
和 成 人 的 (Dickinson et al., 2021), 针对 婴 幼 儿 的 
自 闭 症 智能 诊断 研究 尚 少 。 

脑 影 像 技 术 的 发 展 大 大 推进 了 人 类 对 于 自 闭 
证 病理 机 制 的 理解 ， 脑 影像 技术 与 人 工 智能 技术 
的 结合 为 自 闭 症 的 早期 精准 诊断 提供 了 新 的 契 
机 。 当 前 自 闭 症 诊断 难 、 诊 断 准确 率 不 高 的 主要 
原因 在 于 自 闭 症 本 身 的 病理 机 制 存在 异 质 性 ， 而 
脑 影 像 技术 在 获取 脑 结构 及 功能 精细 信息 进而 捕 
提 不 同 病 理 亚 型 的 特异 性 特征 方面 具有 很 大 优势 
(Emerson et al., 2017)。 因 而 ， 基 于 脑 影像 的 自 闭 
症 客观 诊断 研究 受到 极 大 关注 。 目 前 广泛 应 用 于 自 
闭 症 精细 化 诊断 的 影像 技术 主要 包括 脑 电 (EEG)、 
结构 磁 共 振 成 像 (sMRI) 和 功能 磁 共 振 成 像 (fMRI)。 

结构 磁 共 振 成 像 (sMRD 能 够 捕捉 自 闭 症 婴 幼 
儿 细 微 的 脑 结构 变异 ， 因 而 在 自 闭 症 的 早期 诊断 
中 有 良好 表现 。Hazlett 等 人 (2017) 在 Nature 发 表 
文章 , 报告 了 他 们 基于 sMRI 进行 自 闭 症 早期 诊断 
的 研究 :基于 6~12 月 龄 的 148 个 婴 幼儿 样本 的 SMRI 
数据 他们 提取 了 皮层 厚度 、 皮 层 表面 积 和 上 脑 体 
积 等 特征 ,结合 深度 学 习 算 法 构建 了 自 闭 症 早期 
诊断 模型 最终 达到 了 81% 的 敏感 性 (sensitivity) 
和 88% 的 特异 性 (specificity)。 脑 电 (EEG) 的 高 时 间 
分 辨 率 便 于 其 精准 反映 自 闭 症 婴 幼儿 的 脑 功 能 时 
空 共 变 模 式 的 异常 ,可 为 自 闭 症 的 早期 诊断 提供 
有 效 特 征 。 Gabard-Durnam 等 人 (2019) 基 于 171 例 
3~36 月 龄 的 婴 幼 儿 的 纵向 EEG 数据 ,结合 
Logistic 回归 对 自 闭 症 患者 和 正常 个 体 进 行 分 类 
(类 别 标签 为 样本 36 月 龄 时 的 诊断 结果 ), 研究 发 
现 出 生 后 第 一 年 的 EEG 功率 动态 波动 ( 相 较 第 二 、 
三 年 ) 对 于 自 闭 症 早 期 诊断 最 为 有 效 (正确 率 达 
91%)。Dickinson 等 人 (2021) 基 于 65 例 3 H Hpi% 


本 的 EEG 数据 ,结合 支持 向 量 回归 算法 ,对 样本 
在 18 月 龄 时 测 得 的 自 闭 症 行为 评分 进行 预测 ， 预 
测 值 和 真实 值 的 相关 系数 高 达 0.76。 功 能 磁 共 振 
成 像 (MRD) 同 时 具备 高 的 时 间 分 辩 率 (相对 于 正 
电子 发 射 断层 成 像 (PET)、 单 光子 发 射 计算 机 断层 
成 像 (SPECT)) 和 空间 分 辨 率 ( 相 对 于 EEG), 能 够 
提供 极为 丰富 的 脑 功能 活动 及 脑 功能 网 络 的 静态 和 
动态 特性 信息 ,为 自 闭 症 的 客观 诊断 提供 有 效 特 
征 。Emerson 等 人 (2017) 基 于 59 例 6 月 龄 样本 的 
静 息 状态 fMRI 数据 ,提取 功能 连接 特征 ,以 样本 在 
24 月 龄 是 否 被 诊断 为 自 闭 症 作 为 标签 ,用 支持 向 量 
机 构建 分 类 模型 ,诊断 敏感 性 (sensitivity) 为 81.8%, 
村 异性 (Specificity) 高 达 100%。 

借助 脑 影 像 数据 有 望 实 现 针 对 婴 幼 儿 的 自 闭 
症 精准 诊断 ， 但 出 于 婴 幼儿 样本 数据 的 获取 较 儿 
童 及 成 人 样本 更 加 困难 ， 以 及 研究 人 员 学 术 背 景 
的 限制 ( 自 闭 症 的 智能 诊断 需要 医学 、 神 经 影像 学 
以 及 计算 机 科学 三 个 学 科 领 域 人 员 的 通力 协作 )， 
目前 国际 上 针对 婴 幼 儿 的 自 闭 症 智能 诊断 的 研究 
尚 处 于 起 步 阶 段 ， 具 体 表现 在 :第 一 已 有 研究 主 
要 致力 于 从 正常 对 照样 本 中 区 分 出 自 闭 症 , 还 没 
有 对 自 闭 症 进行 更 为 精细 的 分 级 和 分 型 研究 。 大 
量 研究 表明 自 闭 症 是 一 种 高 度 异 质 性 疾病 
(Elsabbagh et al., 2013), 在 对 出 幼儿 是 否 患 有 自 
闭 症 作出 定性 判断 之 外 ， 如 果 能 提供 自 闭 症 严重 
程度 的 判断 、 所 属 的 病理 亚 型 等 信息 , 将 大 大 有 
助 于 为 患者 制定 更 为 适宜 的 个 性 化 治疗 方案 。 委 
二 ， 多 数 研 究 仅 提 取 了 较为 粗略 的 脑 影 像 特征 
未 充分 发 掘 影像 数据 中 包含 的 有 效 信息 。 人 脑 是 
自然 界 最 为 复杂 的 系统 ， 自 闭 症 患者 的 脑 功 能 异 
常 必然 表现 为 复杂 时 空 共 变 信息 的 异常 。 目 前 针 
对 自 闭 症 诊断 的 研究 都 还 是 基于 静态 功能 连接 、 
局 部 一 致 性 等 较为 简单 的 特征 开展 的 ， 近期 研究 
表明 自然 状态 fMRI 更 适 于 婴 幼 儿 脑 功能 研究 
(Xie et al., 2021),， 而 脑 功能 网 络 的 动态 属性 能 提 
供 比 静态 功能 连接 更 为 丰富 和 有 效 的 脑 功 能 信息 
(Eslami et al., 2021)。 第 三 ， 当 前 研究 多 采用 经 典 
的 机 器 学 习 算法 ， 还 未 充分 利用 性 能 优越 的 深度 
学 习 算法 。 目 前 只 有 较 少 的 研究 采用 深度 学 习 技 
RRE, A, Xu 等 人 (2020) 基 于 功能 性 近 红 
外 光谱 (ENIRS) 时 序数 据 构建 长 短期 记忆 模型 
(LSTM) 和 卷 积 神经 网 络 (CNN) 结 合 的 深度 学 习 模 
型 对 自 闭 症 儿童 和 典型 发 展 儿童 (平均 年 龄 约 9 岁 ) 
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进行 分 类 预测 ,结果 表明 ,模型 表现 出 高 度 的 分 
类 准确 性 ， 敏感 性 (sensitivity) 和 特异 性 (specificity) 
分 别 为 97.1% 和 94.3%， 此 外 ,准确 率 相 比 原 有 模 
型 提升 8%, 证 明 使 用 深度 学 习 模 型 能 够 有 效 提 
升 自 闭 症 患 儿 识 别 的 准确 性 。 
35 ”基于 运动 控制 和 运动 模式 数据 的 自动 识别 
非典 型 的 运动 控制 和 运动 模式 也 是 自 闭 症 的 
早期 特征 。Landa 等 人 (2006) 发 现 ， 自 闭 症 患 儿 早 
在 14 个 月 和 24 个 月 时 在 MSEL 测验 (Mullen Scale 
of Early Learning) 中 的 精细 动作 和 粗大 动作 得 分 
较 低 。 此 外 ,许多 研究 报告 了 自 闭 症 患 儿 在 俯卧 、 
(kh, MCT. ERR LAE ARH. OIE DIA 
运动 控制 能 力 弱 的 现象 (Esposito et al., 2009; 
Teitelbaum et al., 1998)。 这 些 发 现 提 供 了 基于 婴 幼 
儿 时 期 的 非典 型 运动 模式 识别 和 预测 自 闭 症 的 支 
持 性 证 据 。 传 统 方法 对 自 闭 症 患 儿 的 运动 功能 的 
评价 通常 基于 父母 报告 和 专家 现场 观察 ， 编 码 方 
法 和 评价 标准 通常 针对 某 个 具体 的 研究 场景 ， 缺 
乏 效 度 验证 (Ozonoff et al., 2008)。 现 有 研究 大 多 
基于 自 闭 症 儿童 的 运动 视频 构建 自 闭 症 早期 运动 
控制 和 运动 模式 的 自动 检测 方法 。 例 如 ，Dawson 
等 人 (2018) 基 于 视频 的 面部 自动 化 检测 技术 评估 
自 闭 症 幼儿 与 典型 发 展 幼儿 在 自发 性 注意 状态 下 
的 头 部 姿势 控制 能 力 。 人 研究 者 在 实验 室 采集 了 106 
名 16~31 月 龄 的 自 闭 症 幼儿 和 典型 发 展 幼儿 观看 
动态 泡 泡 、 机 械 兔 子 等 视频 时 的 面部 动态 影像 ， 
通过 识别 、 追 踪 、 计 算 相 邻 视 频 帧 中 既定 面部 标 
记 点 的 坐标 位 移 对 头 部 运动 进行 量化 。 结 果 表明 ， 
自 闭 症 幼儿 的 头 部 运动 速率 显著 高 于 典型 发 展 群 
体 ， 即 自 闭 症 幼 儿 在 注意 状态 下 难以 保持 头 部 的 
中 线 位 置 -Martin 等 人 (2018) 采 用 相同 实验 范式 采 
RT 2.5~6.5 岁 儿 童 观 看 社交 和 非 社交 刺激 视频 
时 的 上 半身 视频 录像 , 不同 于 计算 面部 标记 点 位 
移 的 方法 , 该 研究 使 用 Zface (http://zface.org/) 算 
法 (Jeni et al., 2015), 该 算法 被 证 明 有 高 计算 效率 
和 精度 (Jeni & Cohn, 2016), 可 逐个 对 2D 视频 帧 
实时 形成 高 密度 的 3D 面部 形状 , 进行 三 维 尺度 
上 的 头 部 运动 追踪 ,x、y、z 轴 分 别 对 应 头 部 俯仰 
(pitch), 、 偏 航 (yaw) 、 侧 倾 (rolD)。 通 过 计算 连续 视 
频 序列 各 坐标 轴 的 角 位 移 和 角速度 来 量化 头 部 运动 
强度 ,研究 发 现 自 闭 症 儿童 在 观看 社交 刺激 时 ， 头 
部 运动 水 平和 移 速 均 高 于 典型 发 展 儿 童 ， 疑 似 自 
闭 症 儿童 通过 头 部 运动 调节 对 社交 刺激 的 感知 。 


许多 研究 还 尝试 基于 视频 序列 中 的 运动 特征 
建立 自 闭 症 儿 童 的 自动 识别 模型 。Zunino 等 人 
(2018) 关 注 自 闭 症 儿童 (平均 年 龄 约 9.8 岁 ) 的 抓 握 
TA, 分 析 对 象 包含 儿童 抓 握 、 放 置 、 传 递 水 瓶 
的 视频 动作 序列 数据 集 , 平均 长 度 83 帧 。 研 究 者 
使 用 卷 积 神经 网 络 (CNN) 和 长 短期 记忆 网 络 (Long 
short-Term Memory, LSTM) 构 建 自 闭 症 分 类 模型 ， 
不 仅 能 判断 视频 帧 中 的 行为 影像 是 否 为 自 闭 症 个 
体 , 同时 基于 LSTM 的 隐藏 层 的 时 空 表征 信息 和 
内 部 门 机 制 ， 还 可 输出 可 视 化 的 注意 力 地 图 
(normalized attention map)， 即 在 图 像 帧 上 表示 出 
对 自 闭 症 分 类 有 作用 的 、 提 供 重 要 判别 线索 的 位 
置 , 具备 可 解释 性 ,为 临床 工作 者 进一步 提供 支 
持 性 的 辅助 信息 。Vyas 等 人 (2019) 使 用 自 闭 症 远 
程 诊断 服务 NODA 项 目 (https://behaviorimaging. 
com/) 的 数据 ， 包 含 家 长 记录 的 儿童 日 常 活动 视频 
555 个 , 均 已 由 专家 标记 出 自 闭 症 诊断 结果 。 在 运 
动 序列 特征 的 表征 方面 ,， 采用 预 训 练 的 2D Mask 
R-CNN 深度 学 习 网 络 (Girdhar et al., 2018) 识 别 图 
像 帧 的 15 个 人 体 部 位 关键 点 执行 姿态 估计 ， 并 应 
用 粒子 滤波 器 (Particle filter) 对 判断 缺失 的 关键 点 
进行 插 补 (Arulampalam et al., 2002); 使 用 Pose 
Motion (PoTion Representation) 表 征 为 身体 关键 点 
随时 间 变 化 的 RGB 热 图 (Choutas et al., 2018), 并 
输入 最 终 的 CNN DRAP o 结果 显示 , 分 类 的 准 
WIX (accuracy), Him X (precision) f A EIX (recall) 
分 别 是 72.4%. 72%Al 92%。 该 研究 通过 关键 点 
轨迹 刻画 身体 姿势 的 变化 ,使 用 具有 解释 性 的 浅 
层 行为 信息 且 模 型 可 输出 身体 关键 点 变化 热 图 ， 
帮助 研究 者 直观 理解 自 闭 症 儿 童 的 运动 特点 。 

随 着 硬件 设备 技术 的 快速 发 展 , 惯性 运动 传 
感 器 、 陀 螺 仪 和 磁力 计 已 经 被 集成 到 智能 手机 、 
平板 电脑 和 智能 穿戴 设备 中 ， 用 于 采集 个 体 的 运 
动 数据 。Anzulewicz 等 人 (2016) 探 索 了 严肃 游戏 
场景 下 检测 自 闭 症 及 其 运动 模式 的 方法 。 研 究 招 
募 了 37 名 3~6 岁 的 自 闭 症 儿 童 和 45 名 典型 发 展 
儿童 ， 儿 童 手动 操作 平板 游戏 过 程 中 ,通过 设备 
的 触摸 屏 和 内 置 惯性 传感器 (三 轴 加 速度 计 、 陀 螺 
仪 、 磁 力 计 ) 记 录 手 部 运动 数据 。 研 究 者 基于 原始 
传感器 数据 获得 的 共 262 个 特征 构建 多 种 机 器 学 
习 自 闭 症 分 类 模型 ,十 折 交 又 验 证 的 结果 显示 ， 
正则 化 贪心 森林 算法 (Regularized Greedy Forest, 
RGF) 达 到 最 佳 分 类 效果 ， 敏 感性 (sensitivity) 和 特 
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异性 (specificity) 为 83% 和 85%。 此 外 ,研究 发 现 
自 闭 症 儿童 在 玩 游戏 时 的 手 部 撞击 力 、 手 势 压 力 、 
用 力 的 分 配 、 屏 幕 点 击 速率 等 与 典型 发 展 儿童 存 
在 显著 差异 。 

目前 针对 自 闭 症 的 多 种 非典 型 运动 模式 的 自 
动 检测 研究 已 有 较 大 进展 ， 从 涉及 粗大 的 姿态 、 
肢体 动作 到 精细 化 的 头 部 、 手 部 动作 , 包括 : 身 
体 运 动 的 整体 姿态 变化 、 手 部 运动 ( 抓 握 、 放 置 、 
传递 物品 )、 注 意 状 态 下 的 头 部 运动 ( 头 部 运动 速 
率 、 平 衡 性 ) 等 。 人 体 运动 数据 的 采集 对 硬件 设备 
具有 较 高 要 求 ， 随 着 智能 传感器 技术 的 不 断 发 展 ， 


与 基于 《 自 闭 症 行为 评定 量 表 》(Autism Behavior 
Checklist) 的 评估 结果 达到 最 高 一 致 性 。 

男 有 研究 基于 自 闭 症 儿童 与 社交 机 器 人 交互 
过 程 中 产生 的 多 模 态 行为 特征 进行 自 闭 症 自动 化 
诊断 和 干预 效果 评估 。 例 如 ，Scassellati (2007) 界 
定 了 人 机 交互 数据 中 反映 个 体 社交 技能 的 行为 指 
标 ， 以 标准 化 的 测量 方式 提升 人 工 记 录 和 评估 的 
信和 度 。 有 具体 包括 三 方面 的 行为 指标 : (1) 凝 视 方 
向 和 注意 焦点 ; (2) 个 体 与 他 人 的 距离 和 位 置 追踪 ; 
(3) 个 体 声音 的 韵律 和 语调 。 此 外 ,人 研究 者 基于 多 
i rd sce ha 


研究 者 可 采用 智能 穿戴 设备 和 体感 设备 采集 并 记 
录 个 体 的 运动 数据 ， 对 低龄 幼儿 和 儿童 的 非典 型 
动作 进行 自动 化 识别 以 此 对 自 闭 症 早期 运动 发 
展 规 律 进行 深入 人 研究。 

3.6 ”基于 多 模 态 数据 的 自动 识别 

自 闭 症 儿童 的 心理 、 生 理 和 认 知 状态 可 同时 
通过 面部 表情 、 身 体 姿态 、 眼 睛 注视 、 语 音 、 文 
字 以 及 生理 信号 等 多 种 维度 信息 进行 反映 。 并 且 ， 
由 于 实际 测量 环境 的 异 质 性 和 临床 样本 的 稀缺 性 ， 
单 模 态 数据 往往 无 法 携带 足够 的 信息 用 于 识别 
(Chen & Zhao, 2019)。 目 前 ， 自 动 化 识别 的 趋势 是 
采用 多 模 态 数据 融合 思路 ， 对 多 种 模 态 数据 的 相 
关 特 性 或 中 间 决 策 进 行 融合 分 析 ， 获 得 更 有 价值 
的 数据 或 高 层 信 息 以 提高 预测 的 准确 性 (Poria et 
al.，2017)， 人 性 能 优 于 单 模 态 建 模 (de Belen et al., 
2020)。 例如 , Chen 和 Zhao (2019) 分 别 采用 拍摄 任 
务 (Photo-Taking task) 和 和 图像 观 察 任务 
(Image-Viewing task)， 基 于 自 闭 症 患者 异常 的 注 
意 偏好 建立 自 闭 症 自动 化 识别 模型 。 在 建 模 阶段 ， 
人 研究 者 借鉴 跨 模 态 检索 (cross-modal retrieval) 思 
A, 将 两 种 任务 的 模 态 数据 ( 眼 动 ， 图像) 融合 ， 
立 共同 的 预测 模型 实现 多 模 态 信息 的 特征 表征 和 
信息 互补 。 结 果 表 明 , 在 两 种 任务 上 ， 多 模 态 信息 
建 模 方法 的 预测 性 能 相 较 于 传统 单 模 态 建 模 均 有 
提升 ， 拍 摄 任 务 的 预测 正确 率 从 76% 提 高 至 84% 
a 任务 的 正确 率 从 97% 提 高 至 99%。 雇 梦 
怡 等 人 (2021) 构 建 了 融合 多 模 态 数据 的 3~6 岁 自 
闭 症 儿童 智能 化 识别 方法 。 研 究 者 使 用 眼 动 数据 、 
面部 表情 数据 、 认 知 得 分 数据 以 及 认 知 反应 时 数 
据 ， 利 用 数据 差异 性 分 析 进 行 特 征 选择 ,根据 数 
据 来 源 和 时 间 同 步 性 将 数据 进行 分 层 融合 。 结 果 
RH, 与 单 模 态 识别 方法 相 比 ， 多 模 态 建 模 方法 


、 相 对 位 置 、 物 理 距 离 等 行为 数据 ,评价 自 闭 
oe 的 年 龄 3.4 岁 ) 与 社交 机 器 人 互动 的 积极 
性 和 参与 度 (Feil-Seifer & Matari¢, 2010; Moghadas 
& Moradi, 2018)。 男 外 ,目前 有 监测 并 提供 自 闭 症 
患者 社交 技能 服务 的 网 络 平台 ,通过 非 侵 入 式 传 
感 器 和 可 穿戴 设备 采集 患者 与 他 人 的 多 模 态 日 常 下 
动 行为 数据 ， 如 个 体 与 交谈 者 的 物理 距离 、 姿 势 、 
上 半身 运动 、 面 部 微 表情 等 社会 计量 器 (sociometer) 
的 行为 指标 , 实时 传输 至 Microsoft Azure 云 计算 平 
台 存 储 、 分 析 和 完成 行为 标注 , 产生 可 视 化 的 数 
据 分 析 报 告 并 发 送 给 治疗 师 ， 可 有 针对 性 地 设计 
干预 方案 (Winoto et al., 2016)。 
目前 已 积累 较 多 公开 的 、 可 供 研究 者 训练 和 
微调 模型 的 自 闭 症 幼儿 多 模 态 数据 集 。 例 如 , 研 
究 自 闭 症 婴 幼儿 社交 和 沟通 行为 的 多 模 态 二 元 行 
为 数据 集 (Multimodal Dyadic Behavior, MMDB), 
包括 160 RH, PH 3~5 分 钟 的 121 名 婴 幼儿 
(15~30 月 龄 ) 与 成 年 主 试 的 半 结 构 化 互动 片段 。 数 
据 集 已 有 行为 评价 框架 和 人 工 标 定 ， 即 依照 自 闭 
证 编码 手册 和 评分 细则 对 互动 过 程 中 的 关键 行为 
进行 编码 评分 如 婴儿 的 注意 力 和 眼神 接触 、 社 
会 性 微笑 、 发 声 和 言语 表达 (如 , F. WH), 
姿势 (如 ， 指 向 、 挥 手 、 鼓 掌 ) 等 (Rehg et al., 2013). 
此 外 , 还 有 用 于 辅助 自 闭 症 儿 童 干预 治疗 的 多 模 
和 
包含 128 名 自 闭 症 患 儿 与 治疗 师 、 治 疗 机 器 人 的 
KORES MWARASTB), ARER DAAL 
数据 标注 了 情绪 效 价 、 情 绪 唤 醒 、 身 体 姿 势 等 特 
征 ， 可 用 于 训练 人 工 智 能 模型 进行 自动 识别 。 
目前 ， 大 多 数 研 究 主要 基于 独立 收集 的 临床 
数据 构建 检测 模型 ， 而 针对 于 同一 任务 下 的 同类 
方法 或 模型 未 能 得 到 比较 , 研究 成 果 间 成 孤立 之 


202303.09690v1 


chinaXiv 


第 10 期 FER F: 人 工 智能 辅助 的 自 


ChinaXiv 合 作 其 


闭 症 早期 患者 的 筛 查 与 诊断 2313 


势 ， 因 而 需要 借助 公开 数据 集 作 为 模型 性 能 评价 
的 “基准 ”。 同 时 ， 越 来 越 多 的 自 闭 症 公开 数据 集 提 
供 了 推进 机 器 学 习 和 深度 学 习 发 展 所 需 的 数据 规 
模 , 研究 者 可 使 用 公开 数据 集 预 训 练 模型 , 或 使 
用 不 同 模 态 的 数据 提升 模型 性 能 ,增强 检测 方法 
的 泛 化 性 。 


4 小 结 和 研究 展望 


我 国人 口 基 数 大 ,给 患 自 闭 症 的 患者 数量 多 ， 
自 闭 症 的 诊断 过 程 耗 时 ， 且 费用 高 ,需要 长 周期 
的 特殊 教育 训练 和 行为 干预 。 自 闭 症 在 幼儿 期 越 
早 发 现 ， 越 早 干预 ,康复 效果 越 好 ,治愈 率 越 高 。 
在 3 岁 内 开始 治疗 是 最 佳 时 机 ， 随 着 年 龄 增长 
治疗 难度 增 大 。 然 而 ,目前 我 国 自 闭 症 筛 查 与 诊 
断 处 于 “三 缺 ” 状 态 ， 即 缺乏 诊断 标准 、 专 业 人 员 、 
康复 路 径 ， 自 闭 症 康复 干预 系统 也 不 健全 、 整 体 
水 平 偏 低 ,治疗 效果 有 限 。 自 闭 症 的 诊断 主要 依 
据 医生 的 经 验 积累 , 缺乏 便捷 和 客观 有 效 的 诊断 
工具 ， 导 致 从 父母 发 现 儿童 异常 再 到 确诊 需要 漫 
长 的 等 待 时 间 ， 因 而 很 多 患 儿 会 错过 最 佳 干 预 
期 。 此 外 ， 受 限于 诊断 滞后 ,以 及 婴 幼 儿 的 行为 语 
言 能 力 尚 待 发 育 造成 的 干预 困难 ， 现 有 干预 方法 
的 适用 对 象 大 多 是 3 岁 以 上 的 儿童 和 青少年 ， 且 
每 种 干预 方法 的 疗效 并 不 明确 ,每 种 疗法 下 的 干 
预 手 段 比较 单一 ， 这 也 是 制约 患 儿 有 效 康复 的 主 
要 原因 。 

因此 ， 目 前 有 必要 革新 现 有 的 诊断 流程 和 康 
复 路 线 ,， 完善 智 能 辅助 的 自 闭 症 早 期 第 查 、 诊 断 
和 治疗 体系 ,缓解 执行 的 时 间 压 力 和 压缩 人 力 成 
本 ,特别 是 对 患者 家 庭 ， 越 早 发 现 和 干预 ,其 预后 
效果 越 好 ,能 够 促进 自 闭 症 患者 的 发 展 进程 、 改 
善 其 语言 减少 问题 行为 ( 陈 顺 森 等 ,2011), 产生 
持久 甚至 终生 受益 的 良好 疗效 , 将 家 庭 的 经 济 和 
精神 负荷 降 到 最 低 。 近 年 来 , 计算 机 视觉 、 语 音 
技术 、 智 能 穿戴 设备 、 脑 成 像 等 技术 能 够 实现 多 
种 行为 数据 的 采集 和 监测 , 方便 研究 者 获取 多 模 
态 、 不 同 场景 和 多 种 行为 维度 的 患者 数据 。 尤 其 
基于 自 闭 症 患 儿 在 自然 场景 下 与 抚养 人 互动 的 视 
音频 数据 建 模 ， 相 比 传统 方法 ， 能 够 更 加 真实 、 全 
面 地 反映 行为 特征 与 症状 间 的 关系 ,捕捉 肉眼 无 
法 观察 到 的 细微 表情 或 肢体 动作 的 变化 。 围 绕 建 
立 婴 幼儿 自 闭 症 的 智能 化 无 感 第 查 、 诊 断 评估 体 
ABO, 本文 提出 当前 主要 存在 的 两 点 问题 ,未 


来 研究 方向 如 下 所 述 。 
4.1 缺乏 针对 婴 幼 儿 的 有 效 的 筛 查 工具 

目前 , 针对 自 闭 症 的 早期 第 查 与 诊断 取得 了 
很 多 进展 ， 一 些 测量 工具 得 到 广泛 认可 , 但 同时 
自 闭 症 的 早期 得 查 与 诊断 也 存在 诸多 不 足 之 处 ， 
包括 早期 筛 查 难 和 普及 难 、 检 测评 估 不 精准 等 。 
具体 表现 在 以 下 三 个 方面 。 

第 一 , 缺乏 精细 化 的 婴 幼 儿 自 闭 症 早期 行为 
诊断 体系 。 自 闭 症 早期 评估 工具 的 年 龄 使 用 范围 
BERK, 一 般 至 少 为 6 SA, 且 评 估 项 目 对 不 
同 发 展 阶段 的 幼儿 并 不 完全 一 致 ， 各 有 侧重 点 。 
自 闭 症 的 评估 需要 根据 幼儿 能 力 发 展 的 先后 顺序 ， 
结合 环境 特点 设计 测评 项 目 。 但 个 体 在 幼儿 期 发 
展 迅速 ,即使 是 3 个 月 内 就 能 呈现 较 大 差异 ,， 若 
采用 同一 工具 对 6 个 月 跨度 的 婴 幼 儿 进行 测评 ， 
在 测评 内 容 、 标 准 单一 的 情况 下 , 评估 的 准确 性 
很 难保 证 ， 即 存在 测评 工具 的 敏感 性 和 特异 性 对 
于 不 同年 龄 跨度 不 稳定 的 问题 (Nah et al., 2019)。 
为 了 使 婴 幼 儿 自 闭 症 的 早期 识别 更 精准 ,清晰 描 
述 自 闭 症 早期 患 儿 的 行为 特征 和 发 展 规律 至 关 重 
要 。 人 研究 通常 以 3 月 龄 为 间隔 对 自 闭 症 婴 幼儿 的 
早期 特征 进行 追踪 和 比较 (Kaur et al., 2018), 但 
涉及 到 的 年 龄 跨度 并 不 完整 地 涵盖 自 闭 症 早期 识 
别 的 关键 时 期 ( 即 6~36 个 月 )， 同 时 追踪 时 间 较 长 
的 研究 则 往往 追踪 间隔 也 较 大 (如 6 个 月 或 12 个 
月 ) 且 不 均匀 。 同 时 , 不 同 的 研究 往往 仅 关注 自 闭 
证 的 少数 典型 行为 ， 如 物品 分 享 、 社 会 习惯 微笑 
等 ， 并 不 全 面 涉及 自 闭 症 婴 幼 儿 的 所 有 典型 表 
现 。 因 此 ， 当 前 国内 外 仍 缺 乏 对 自 闭 症 婴 幼儿 在 
研究 时 间 和 内 容 两 个 维度 上 更 细 化 且 系 统 的 研究 ， 
缺乏 具有 针对 性 的 自 闭 症 早期 患 儿 的 识别 体系 。 
第 二 , 缺乏 考察 自 闭 症 早期 患 儿 情 绪 、 情 感 
能 力 的 测评 项 目 。 自 闭 症 早期 评估 的 工具 繁多 ， 
大 多 数 测评 工具 可 分 为 社会 交往 与 互动 、 语 言及 
认 知 发 展 、 重 复 性 刻板 行为 /兴趣 三 方面 维度 。 根 
据 其 年 龄 适用 性 ,各 量 表 关 注 的 侧重 点 存在 差异 ， 
一 些 量 表 只 侧重 部 分 核心 症状 , 如 CHAT 量 表 关 
注 共 同 注意 和 假想 游戏 能 力 ， 仅 涉及 社会 互动 方 
面 ( 尤 娜 ， 杨 广 学 ，2006)。 作 为 诊断 “ 金 标准 ”的 
ADOS 能 较为 全 面 地 观察 到 自 闭 症 患 儿 的 表现 ， 
但 其 诊断 标准 中 仍然 缺少 对 患 儿 情绪 情感 能 力 发 
展 的 评估 指标 。 重 要 的 是 ， 自 闭 症 婴 幼儿 往往 具 
有 情绪 和 情感 发 展 障碍 , 在 情感 淡漠 、 情 绪 理 解 
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和 表达 上 存在 困难 等 特征 ， 这些 特征 通常 被 认为 
是 社交 障碍 的 典型 表现 。 但 是 , 目前 对 自 闭 症 婴 
幼儿 社交 能 力 的 观察 只 聚焦 在 “是 否 出 现 互动 ”的 
行为 层面 上 ,并 没有 重点 突出 情绪 和 情感 发 展 的 
指标 (de Bildt et al., 2015)。 情 绪 情 感 发 展 是 婴 幼 儿 
社会 性 发 展 的 基础 ， 认 识 到 自 闭 症 早 期 患 儿 在 情 
绪 情 感 发 展 上 的 特征 具有 重要 意义 , 可 以 有 针对 
性 地 提供 干预 措施 或 干预 效果 评估 指标 有 助 于 
探索 帮助 自 闭 症 婴 幼儿 全 面 发 展 的 稳健 路 径 。 

第 三 ， 缺 乏 现 有 筛 查 和 诊断 方式 的 创新 和 有 
机 整合 。 自 闭 症 的 诊断 方法 主要 是 医师 进行 病史 
分 析 、 症状 查询 、 婴 幼儿 行为 观察 和 量 表 测评 ， 同 
时 结合 少量 CT/ 核 磁 等 神经 影像 检查 和 遗传 学 染 
色 体 分 型 检查 、 代 谢 病 筛 查 等 辅助 检查 。 诊 断 方 
式 缺 乏 细 致 和 统一 的 标准 ， 而 且 常 用 方式 和 工具 
又 存在 一 定 的 局 限 性 。 例 如 ,依赖 于 婴 幼 儿 主 要 
养育 人 的 半 结 构 化 测评 缺少 儿童 的 互动 参与 , 易 
受到 养育 人 主观 因素 影响 ,不 能 客观 反映 婴 幼 儿 
的 能 力 水平 ， 养育 者 对 于 要 考察 的 问题 没有 精确 
的 理解 ， 可 能 会 高 佑 或 低估 婴 幼 儿 的 能 力 (Johnson 
& Myers, 2007); 同时 , 依赖 于 现场 观察 的 测评 程 


有 非常 重要 的 临床 价值 。 
4.2 ”缺乏 融合 多 模 态 数据 的 智能 化 识别 研究 
目前 ， 自 闭 症 智能 化 识别 的 主要 对 象 群体 是 
3 岁 以 上 的 自 闭 症 儿童 和 成 年 人 人。 研究 者 相 较 于 
实验 室 数据 ， 较 少 使 用 临床 诊断 和 自然 状态 下 采 
集 的 行为 数据 。 在 自 闭 症 智能 化 识别 的 6 个 研究 
子 领域 内 需 解 决 的 难题 存在 一 定 差异 , 例如 ， 在 
基于 自 闭 症 面部 表情 和 情绪 数据 的 识别 方面 ， 当 前 
已 能 够 实现 基于 深度 学 习 方 法 (例如 , CNN, DCNN) 
对 自 闭 症 患者 的 照片 或 视频 帧 进行 情绪 分 类 (Li 
et al., 2019; Shukla et al., 2017)。 然 而 ， 多 数 情绪 
分 类 器 的 开发 仅 涉及 自 闭 症 成 年 群体 ， 对 自 闭 症 
婴 幼 儿 的 泛 化 性 较 差 (Kalantarian et al., 2019); 其 
次 , 仅 能 实现 对 患者 的 基本 情绪 进行 定性 识别 (如 ， 
快乐 , 厌恶， 愤怒 等 ), 缺乏 对 患者 情绪 复杂 性 或 
情绪 异常 等 级 的 评估 研究 (Guha et al., 2016)。 ÆA 
于 眼 动 数据 的 识别 方面 ， 临床 和 实证 研究 已 累积 
丰富 的 自 闭 症 幼儿 与 典型 发 展 幼儿 的 眼 动 模式 差 
异 证 据 ， 同 时 领域 内 已 提出 有 效 的 特征 提取 方 
法 、 预 测 框架 和 评分 框架 (Liu et al., 2016; Liu et al., 
2015)。 然 而 ， 多数 眼 动 数据 是 在 高 度 受 控 的 实验 


序 十 分 复杂 ， 且 必须 让 拥有 专业 资格 的 医师 进行 
观察 才能 得 到 结果 (Matson et al., 2011; Romero- 
Garcia et al., 2019)。 国 际 上 以 ADOS 诊断 为 金 标 
YE, 但 是 国内 接受 过 ADOS 评价 的 专业 人 员 却 极 
EEZ, 临床 医生 通过 观察 得 出 的 结论 具有 一 定 
的 主观 性 ,往往 受 其 临床 经 验 和 专业 培训 影响 
(Romero-Garcia et al., 2019), 医生 与 儿童 在 一 起 
的 时 间 很 短暂 ,难以 全 面 评价 婴 幼 儿 在 不 同情 境 
中 的 表现 ,注意 到 婴 幼 儿 多 方面 的 异常 行为 
(Fitzgerald, 2017; Zabihi et al., 2020)。 有 研究 表明 
完整 的 诊断 过 程 会 花费 相当 长 的 时 间 ( 平 均 41 个 
月 ) 和 较 高 的 费用 ， 而 且 量 表 的 评分 较为 粗略 
(Hyman et al., 2020), 不 仅 不 利于 尽早 地 对 患 儿 进 
TEM, 还 可 能 会 由 于 标准 不 统一 而 造成 误 判 。 
综 上 ,传统 筛 查 与 诊断 方式 受到 时 间 、 人 力 
和 婴 幼 儿 发 育 阶段 的 特殊 性 等 因素 的 限制 ,不 仅 
有 必要 对 已 有 的 诊断 工具 和 医生 专业 诊断 标准 进 


室 环境 中 借助 专业 仪器 获得 ， 并 要 求 被 试 持续 注 
视屏 幕 ， 难 以 在 大 规模 筛 查 中 施行 ， 也 很 难 评估 
幼儿 与 抚养 者 在 自然 社交 互动 中 的 眼神 接触 。 在 
基于 运动 控制 和 运动 模式 数据 的 识别 方面 ,目前 
实现 了 较为 简单 的 经 典 任务 中 国定 身体 部 位 和 上 肢 
体 动 作 的 识别 ， 如 婴 幼儿 自 闭 症 诊断 中 的 “ 叫 名 
反应 ”的 头 部 运动 Dawson et al., 2018) 和 抓 握 动作 
(Martin et al., 2018) 等 ,还 未 涉及 自 闭 症 幼儿 在 复 
杂 任 务 中 的 肢体 动作 和 身体 部 位 的 姿态 识别 。 然 
m, 已 有 研究 大 多 基于 单 模 态 数 据 进行 自 闭 症 患 
者 的 智能 化 识别 ,尚未 充分 利用 自 闭 症 患 者 的 多 
模 态 信息 。 

当前 ， 自 闭 症 智能 化 识别 的 主要 趋势 是 尽 可 
能 获取 丰富 的 自 闭 症 婴 幼儿 的 多 模 态 数据 ， 融 合 
多 种 形态 的 数据 及 患者 不 同 的 行为 维度 (如 ， 眼 
动 、 语 音 、 层 动 、 面 部 表情 和 上 肢体 动作 ), 探索 不 
同 模 态 信息 间 的 互补 性 关系 、 特 征 转化 与 表征 模 


行 更 细致 的 研究 和 补充 ， 较 为 全 面 地 构建 自 闭 症 
患 儿 的 行为 特征 体系 ,以 提供 对 不 同年 龄 段 的 婴 
幼儿 自 闭 症 的 精确 识别 标准 ; 此 外 ,开发 一 种 能 
够 辅助 或 者 代替 医生 在 家 庭 或 者 社区 医院 进行 快 
速 第 查 并 能 够 有 效 减 少 主观 误差 的 智能 工具 , 将 


式 , 采用 多 模 态 数 据 融 合 思 想 构建 自 闭 症 患 儿 自 
动 王 别 模型 ， 有望 实现 自 闭 症 婴 幼儿 往 查 方法 上 
的 革新 和 诊断 精度 的 突破 。 国 际 上 已 经 开展 了 大 
量 基 于 多 模 态 数据 的 、 针 对 其 它 精 神 疾病 (比如 阿 
尔 欧 海 默 病 、 精 神 分 裂 症 ) 的 智能 诊断 研究 ， 多 项 
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研究 表明 利用 多 模 态 数据 能 得 到 较 单 模 态 数据 更 
高 的 诊断 精度 。 这 类 研究 从 建 模 数据 来 看 ， 主 要 
以 6 岁 以 上 的 自 闭 症 患 儿 为 主 ,对 低龄 自 闭 症 患 
儿 的 自动 化 识别 依然 是 研究 缺口 。 并 且 ， 当 前 研究 
者 能 够 获取 的 自 闭 症 患 儿 多 模 态 信息 较 少 ,主要 
来 自 人 为 控制 的 实验 环境 、 公 开 数 据 集 、 网 络 视 
频 资 源 等 ， 且 行为 数据 大 多 来 自 单一 任务 情境 或 
治疗 康复 情境 ， 能 否 有 效 地 应 用 于 大 规模 的 自 闭 
症 婴 幼儿 往 查 尚且 未 知 。 此 外 ,许多 模型 识别 的 
自 闭 症 婴 幼儿 行为 标签 较为 粗略 和 简单 ， 如 基于 


难以 在 临床 诊断 中 发 挥 重要 作用 。 

自 闭 症 智能 化 识别 的 基础 是 构建 多 模 态 数据 
R, 没有 数据 也 就 不 存在 发 展 高 精度 算法 的 可 
能 。 如 何 高 效率 且 便 捷 的 获取 患 儿 的 多 模 态 信息 、 
减少 噪音 并 进行 有 效 识 别 是 未 来 研究 的 重点 。 目 
前 ， 国 外 有 较 多 情境 来 源 的 、 包 含 行 为 标记 的 、 
可 供 研 究 者 使 用 的 自 闭 症 患 者 公开 数据 集 ， 尽 管 
还 存在 着 上 述 的 缺乏 婴 幼 儿 数据 、 数 据 类 型 较为 
单一 和 行为 标签 粗略 等 问题 , 但 仍然 为 自 闭 症 识 
别 算 法 的 快速 更 新 起 到 了 重要 的 作用 。 我 国 乌 患 
自 闭 症 的 幼儿 数量 庞大 日 逐年 递增 , 但 自 闭 症 患 
儿 病 例 数据 分 散 。 要 构建 智能 辅助 的 自 闭 症 早期 
第 查 、 诊 断 系 统 ， 首 先 应 厘清 自 闭 症 早期 诊断 标 
YE, 构建 我 国 自 闭 症 婴 幼儿 异常 行为 指标 评估 体 
A, 从 多 方 获取 自 闭 症 患 儿 的 多 模 态 数据 并 进行 
粗细 颗粒 度 的 异常 行为 标记 。 组 建 大 规模 自 闭 症 
及 高 危 婴 幼儿 数据 库 和 行为 特征 库 是 我 国 开展 高 
质量 的 智能 化 识别 研究 的 必要 条 件 。 在 当前 大 规 
模 数据 集 尚未 建成 的 时 期 ， 面 对 模型 训练 数据 需 
求 量 大 与 自 闭 症 患 儿 样 本 匮乏 之 间 的 矛盾 , 研究 
者 可 先 尝试 运 用 深度 学 习 领 域 的 小 样本 学 习 (few- 
shot learning), WRA AY (fine-tuning), 数据 增强 
(data augmentation), £% 3 (transfer learning) 
等 方法 解决 小 样本 环境 下 的 模型 建 模 和 优化 问 


题 。 
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Abstract: Symptoms of Autistic Spectrum Disorders (ASD) manifest as early as infancy, and the earlier 
detection and intervention can lead to better therapeutic results. The traditional tools of early screening and 
diagnosis of autism have limitations in evaluation methods and procedures, which cannot meet the needs of 
large-scale screening and diagnosis. With the rapid artificial intelligence technological advancement, using 
an intelligent approach for large-scale non-inductive early screening and diagnosis of autism has become 
possible. In the past decade, a myriad of research findings on intelligent detection technology of autism 
were generated domestically and internationally in six aspects: behaviors in classic tasks, facial expressions 
and emotions, eye gaze data, brain imaging, motor control and movement patterns, and multimodal data. 
Future research should focus on constructing a domestic intelligent medical screening and diagnosis system 
for early autism, developing screening tools for infants and young children, constructing an automated 
recognition model for autistic infants by integrating multimodal data, establishing a refined autism diagnosis 
method combined with brain imaging technology, and other aspects. 
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